Meta разширява AI превода до 200 езика, но експертите предлагат да говорите с носители на езика
Скоро ще бъде по-лесно да виждате изявления във Фейсбук и Instagram на по-малко говорими световни езици, само че специалист допуска, че с цел да усъвършенства инструмента, Meta би трябвало да приказва с носителите на езика.
Скоро ще бъде по-лесно да виждате изявления във Фейсбук и Instagram на 200 по-малко говорими езика по света.
Проектът No Language Left Behind (NLLB) на Meta разгласи в публикация, оповестена този месец, че са нараснали истинската си технология.
Проектът включва дузина европейски езици с „ невисок запас “, като шотландски келтски, галисийски, ирландски, линггурски, босненски, исландски и уелски.
Според Meta това е език, който има по-малко от един милион фрази в данни, които могат да бъдат употребявани.
Експертите споделят, че с цел да усъвършенства услугата, Meta би трябвало да се съветва с носители на езика и езикови експерти, защото инструментът към момента се нуждае от работа.
Как работи планът
Meta образова своя изкуствен интелект (AI) с данни от хранилището Opus, платформа с отворен код с сбирка от достоверен текст на тирада или писане за разнообразни езици, които могат да програмират машинно образование.
Участниците в набора от данни са специалисти в обработката на натурален език (NLP): подмножеството от проучвания с изкуствен интелект, което дава на компютрите способността да превеждат и схващат човешки език.
Meta сподели, че те също употребяват композиция от извлечени данни от източници като Wikipedia в своите бази данни.
Данните се употребяват за основаване на това, което Meta назовава многоезичен езиков модел (MLM), където AI може да превежда „ сред всяка двойка … езици, без да разчита на британски данни “, съгласно техния уеб страница.
p> Meta споделя, че следва Гугъл, OpenAI в образованието на AI с данни
Екипът на NLLB прави оценка качеството на своите преводи с пример на основани от тях фрази, преведени от хора, които също са с отворен код. Това включва лист с „ токсични “ думи или изречения, които хората могат да научат софтуера да филтрира при превод на текст.
Според техния най-нов документ екипът на NLLB е подобрил точността на преводите с 44 % от първия си модел, пуснат през 2020 г.
Когато технологията бъде изцяло внедрена, Meta пресмята, че ще има повече от 25 милиарда превода всеки ден във Фейсбук News Feed, Instagram и други платформи.
„ Говори с хората “
Уилям Ламб, професор по келтска етнология и филология в Единбургския университет, е специалист по шотландски келтски, един от разпознатите езици с ниски запаси от Meta в нейния план NLLB.
Около 2,5 % от популацията на Шотландия, почти 130 000 души, споделиха при преброяването през 2022 година, че имат известни умения по келтския език от 13-ти век.
Има също към 2000 говорещи галски език в източна Канада, където е малцинствен език. ЮНЕСКО класифицира езика като „ заплашен “ от изгубване заради това какъв брой малко хора го приказват постоянно.
„ Това, което би трябвало да създадат... в случай че в действителност желаят да подобрят превода, е да беседват с хората, носителите на галски, които към момента живеят и дишат езика. “
Ламб означи, че преводите на Мета на шотландски келтски „ към момента не са доста положителни “ заради данните, събрани от тълпата, които употребяват, макар че „ сърцето им е на вярното място “.
„ Това, което те би трябвало да създадат... в случай че в действителност желаят да подобрят превода, е да беседват с хората, говорещите галски език, които към момента живеят и дишат езика “, сподели Ламб.
Това е по-лесно да се каже, в сравнение с да се направи, продължи Ламб. Повечето от говорещите езика са на възраст над 70 години и не употребяват компютри, а младите говорещи „ употребяват келтски всекидневно, а не по метода, по който го вършат техните баби и дядовци “.
Добър сурогат би бил Meta да издаде лиценз съглашение с BBC, които работят за опазване на езика, като основават висококачествено онлайн наличие в него.
„ Това би трябвало да се направи от експерти “
Алберто Бугарин-Диз, професор по изкуствен интелект в университета Сантяго де Компостела в Испания, има вяра, че лингвисти като Lamb би трябвало да работят с огромните софтуерни компании, с цел да уточняват наборите от данни, с които разполагат.
„ Това би трябвало да се направи от експерти, които могат да ревизират текстовете, да ги поправят и актуализират с метаданни, които можем да използваме “, сподели Бугарин-Диз.
„ Хора от филантропични науки и от механически опит като инженери би трябвало да работят дружно, това е същинска нужда “, добави той.
Има преимущество за Meta при потреблението на Wikipedia, Бугарин - продължи Диз, тъй като данните ще отразяват „ съвсем всеки аспект от човешкия живот “, което значи, че качеството на езика може да бъде доста по-добро, в сравнение с просто да се употребяват по-официални текстове.
РЕКЛАМА Основателят на Wikipedia Джими Уелс споделя, че AI е „ неразбория “ в този момент, само че може да стане свръхчовек след 50 години
Но Бугарин-Диз предлага Meta и други компании за AI да отделят време да потърсят качествени данни онлайн и по-късно да преминат през правните условия, нужни за потреблението му, без да се нарушават законите за интелектуална благосъстоятелност.
Ламб в това време сподели, че няма да предложи на хората да го употребяват заради неточности в данните, в случай че Meta не направи някои промени в техния набор от данни.
„ Не бих споделил, че техните качествата за превод са в точката, в която инструментите са фактически потребни, ” сподели Ламб.
“Все още не бих насърчил никого като надеждни езикови инструменти; Мисля, че и те ще бъдат откровени, като кажат това.
Bugarín-Diz заема друга позиция.
Той има вяра, че в случай че никой не употребява мета преводите, той „ няма да пожелае “ да влага време и запаси в подобряването им.
Подобно на други AI принадлежности, Bugarin-Diz има вяра, че е въпрос на познаване на слабите страни на технологията, преди да я употребявате.
Видео редактор • Инес Триндад Перейра